Lexique des formes fléchies du français

Un article de Wikipédia, l'encyclopédie libre.

Le Lexique des formes fléchies du français, ou Lefff, est un lexique électronique de la langue française, disponible sous licence Open Source. C'est un lexique morphologique et syntaxique: il associe à chaque forme fléchie des informations morphologiques (lemme, étiquette morphologique) et syntaxiques (cadre de sous-catégorisation, autres propriétés syntaxiques). Il est destiné à être directement utilisé dans des applications de traitement automatique des langues, en essayant toutefois d’être indépendant des choix théoriques de ses utilisateurs, et en particulier des théories syntaxiques.

La version actuelle comporte environ 540 000 entrées correspondant à environ 110 000 lemmes distincts.

Acquisition automatique avec validation manuelle (Lionel Clément et Benoît Sagot - 2003-2006)[modifier | modifier le code]

La première version (nommée Lefff, l'ivresse des mots), réalisée par Lionel Clément et Benoît Sagot, avec la participation de Bernard Lang en 2003 ([1]) visait à donner librement accès à une version d'un lexique électronique à large couverture de la langue française. Pour cela, les auteurs ont développé une méthode d'acquisition automatique des formes fléchies d'un lexique avec peu de travail de validation manuelle. Elle comprenait 207 343 formes fléchies pour 5 377 lemmes et fut distribuée sous licence GPL par INRIA.

La seconde version (version 2.1), réalisée par Lionel Clément et Benoît Sagot en 2006[2] a été distribuée par l'INRIA sous licence LGPLLR (Lesser General Public License For Linguistic Resources). Elle comprenait 404 634 formes fléchies et 105 595 lemmes.

Acquisition automatique avec validation manuelle d'informations syntaxiques atomiques (Benoît Sagot - 2006 [3])[modifier | modifier le code]

Le Lefff est développé au sein de l'architecture Alexina (Architecture pour les LEXiques INformatiques et leur Acquisition), en parallèle à d'autres lexiques utilisant le même format, utilisés en TAL et/ou en linguistique quantitative.

Notes et références[modifier | modifier le code]

  1. Lionel Clément, Benoît Sagot et Bernard Lang, « Morphology based automatic acquisition of large-coverage lexica », LREC'04,‎ (lire en ligne)
  2. Benoît Sagot, Lionel Clément, Éric Villemonte de la Clergerie et Pierre Boullier, « The Lefff 2 syntactic lexicon for French: architecture, acquisition, use », LREC,‎ , p. 1348-1351 (lire en ligne)
  3. Benoît Sagot, « The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French », LREC,‎

Lien externe[modifier | modifier le code]